In this paper, we propose a novel architecture, the Enhanced Interactive Transformer (EIT), to address the issue of head degradation in self-attention mechanisms. Our approach replaces the traditional multi-head self-attention mechanism with the Enhanced Multi-Head Attention (EMHA) mechanism, which relaxes the one-to-one mapping constraint among queries and keys, allowing each query to attend to multiple keys. Furthermore, we introduce two interaction models, Inner-Subspace Interaction and Cross-Subspace Interaction, to fully utilize the many-to-many mapping capabilities of EMHA. Extensive experiments on a wide range of tasks (e.g. machine translation, abstractive summarization, grammar correction, language modelling and brain disease automatic diagnosis) show its superiority with a very modest increase in model size.
translated by 谷歌翻译
预先训练的图像文本模型(如剪辑)已经证明了从大规模的Web收集的图像文本数据中学到的视觉表示的强大力量。鉴于学习良好的视觉特征,一些现有的作品将图像表示转移到视频域并取得良好的结果。但是,如何利用图像语言预训练的模型(例如,剪辑)进行视频培训(后培训)仍在探索。在本文中,我们研究了两个问题:1)阻碍后期剪辑的因素是什么因素,以进一步提高视频语言任务的性能? 2)如何减轻这些因素的影响?通过一系列比较实验和分析,我们发现语言源之间的数据量表和域间隙具有很大的影响。由这些动机,我们提出了一种配备了视频代理机制的Omnisource跨模式学习方法,即剪辑,即剪辑VIP。广泛的结果表明,我们的方法可以提高视频检索的剪辑的性能。我们的模型还可以在包括MSR-VTT,DIDEMO,LSMDC和ActivityNet在内的各种数据集上实现SOTA结果。我们在https://github.com/microsoft/xpretrain/tree/main/main/main/clip-vip上发布了代码和预训练的剪辑模型。
translated by 谷歌翻译
图形着色是一个经典且关键的NP硬性问题,是分配尽可能不同颜色的连接节点的问题。但是,我们观察到,最新的GNN在图形着色问题中不太成功。我们从两个角度分析原因。首先,大多数GNN都无法将任务概括为同质性的任务,即在其中分配了不同颜色的图形。其次,GNN受网络深度的界定,使其成为一种本地方法,在最大独立集(MIS)问题中已证明这是非最佳选择的。在本文中,我们专注于流行的GNN类的聚合 - 结合GNNS(AC-GNNS)。我们首先将AC-GNN在着色问题中的功能定义为分配节点不同颜色的能力。该定义与以前的定义不同,该定义是基于同质的假设。我们确定了AC-GNN无法区分的节点对。此外,我们表明任何AC-GNN都是本地着色方法,并且任何局部着色方法都是通过稀疏随机图探索局部方法的极限,从而证明了AC-GNN的非典型性财产。然后,我们证明了模型深度与其着色能力之间的正相关。此外,我们讨论了图形的颜色模棱两可,以应对一些实际约束,例如预固化约束。在上面的讨论之后,我们总结了一系列规则一系列规则,这些规则使GNN颜色均等且功能强大。然后,我们提出了满足这些规则的简单AC-GNN变化。我们从经验上验证了我们的理论发现,并证明我们的简单模型在质量和运行时都大大优于最先进的启发式算法。
translated by 谷歌翻译
多尺度特征层次结构已在计算机视觉区域的成功中得到了见证。这进一步激发了研究人员设计自然语言处理的多尺度变压器,主要是基于自我发项机制。例如,限制跨头部的接收场或通过卷积提取局部细粒度特征。但是,大多数现有作品都直接建模了本地功能,但忽略了单词边界信息。这导致了缺乏解释性的多余和模棱两可的注意力分布。在这项工作中,我们在不同的语言单元中定义了这些量表,包括子字,单词和短语。我们通过基于单词边界信息和短语级别的先验知识之间建立量表之间的关系来构建多尺度变压器模型。提出的\ textbf {u} niversal \ textbf {m} ulti \ textbf {s} cale \ textbf {t} ransformer,即在两个序列生成任务上评估。值得注意的是,它在几个测试组上的强大基线上产生了一致的性能,而无需牺牲效率。
translated by 谷歌翻译
GPT-3和Palm等大型语言模型在几次学习中表现出色。但是,他们仍然在推理任务(例如算术基准GSM8K)上挣扎。最近的进步故意指导语言模型在产生最终答案之前生成一系列推理步骤,从而成功地将GSM8K基准从17.9%提高到58.1%,以解决问题的解决率。在本文中,我们提出了一种新的方法,即多样化的方法(关于推理步骤的多样化验证者),以进一步提高其推理能力。多样性首先探索不同的提示,以增强推理路径的多样性。其次,Diverse介绍了一个验证者,以区分好的答案和不良答案,从而获得更好的权重投票。最后,多样性验证每个步骤的正确性,而不是整体上的所有步骤。我们使用最新的语言型号Davinci-002进行广泛的实验,并证明多样化可以在八分之六的推理基准中实现新的最先进的性能(例如,GSM8K 74.4%至83.2%),超过棕榈具有540B参数的模型。
translated by 谷歌翻译
少数群体一直在使用社交媒体来组织社会运动,从而产生深远的社会影响。黑人生活问题(BLM)和停止亚洲仇恨(SAH)是两个成功的社会运动,在Twitter上蔓延开来,促进了抗议活动和活动,反对种族主义,并提高公众对少数群体面临的其他社会挑战的认识。但是,以前的研究主要对与用户的推文或访谈进行了定性分析,这些推文或访谈可能无法全面和有效地代表所有推文。很少有研究以严格,量化和以数据为中心的方法探讨了BLM和SAH对话中的Twitter主题。因此,在这项研究中,我们采用了一种混合方法来全面分析BLM和SAH Twitter主题。我们实施了(1)潜在的DIRICHLET分配模型,以了解顶级高级单词和主题以及(2)开放编码分析,以确定整个推文中的特定主题。我们通过#BlackLivesMatter和#Stopasianhate主题标签收集了超过一百万条推文,并比较了它们的主题。我们的发现表明,这些推文在深度上讨论了各种有影响力的话题,社会正义,社会运动和情感情感都是两种运动的共同主题,尽管每个运动都有独特的子主题。我们的研究尤其是社交媒体平台上的社会运动的主题分析,以及有关AI,伦理和社会相互作用的文献。
translated by 谷歌翻译
事件摄像机是受到生物启发的视觉传感器,异步代表像素级亮度随着事件流而变化。基于事件的单眼多视图立体声(EMV)是一种利用事件流以估算具有已知轨迹的半密度3D结构的技术。对于基于事件的单眼大满贯,这是一项关键任务。但是,所需的密集计算工作负载使其对于嵌入式平台上的实时部署而具有挑战性。在本文中,通过实现最关键和最耗时的阶段,包括事件反向预测和FPGA上的体积射线计数,提出Eventor作为快速有效的EMV加速器。高度平行且完全管道的处理元素是通过FPGA专门设计的,并与嵌入式臂集成为异质系统,以改善吞吐量并减少记忆足迹。同时,通过重新安排,近似计算和混合数据量化,将EMVS算法重新制定为更硬件的方式。戴维斯数据集的评估结果表明,与英特尔i5 CPU平台相比,Eventor的能源效率最高可提高$ 24 \ times $。
translated by 谷歌翻译
在现实世界中收集大型清洁扭曲的训练图像对是非琐碎的,这严重限制了这些受监管的基于学习的图像恢复(IR)方法的实际应用。以前的作品试图通过利用无监督的学习技术来缓解对配对训练样本的依赖来解决这个问题。然而,由于缺乏清洁的图像监督,这些方法通常遭受不令人满意的纹理合成。与纯粹无监督的解决方案相比,具有少量清洁图像(FS-IR)的探索计划(FS-IR)更加可行,以解决这一具有挑战性的真实图像恢复任务。在本文中,我们是第一个调查少量实际图像恢复,并提出失真关系引导学习(称为DRTL)框架。 DRTL为知识图分配,以捕获辅助任务(即,合成失真)和目标任务之间的失真关系(即,具有少量图像的实际失真),然后采用梯度加权策略来指导从辅助任务到目标任务的知识传输。通过这种方式,DRTL可以快速学习来自前后扭曲的最相关的知识来实现​​目标失真。我们将DRTL实例化与预训练和元学习管道集成为一个实施例,以实现失真 - 关系意识FS-IR。在多个基准上的广泛实验证明了DRTL对少量实际图像恢复的有效性。
translated by 谷歌翻译
部分微分方程(PDES)在科学和工程的许多学科中都是普遍的,难以解决。通常,PDE的闭合形式溶液不可用,数值近似方法是计算昂贵的。 PDE的参数在许多应用中是可变的,例如逆问题,控制和优化,风险评估和不确定性量化。在这些应用程序中,我们的目标是解决参数PDE而不是其中一个实例。我们所提出的方法,称为元 - 自动解码器(MAD),将参数PDES作为元学习问题求解,并利用\ Cite {Park2019DeepsDF}中的自动解码器结构来处理不同的任务/ PDE。从PDE管理方程和边界条件诱导的物理知识损失被用作不同任务的培训损失。疯狂的目标是学习一个良好的模型初始化,可以概括不同的任务,最终使未能学习的任务能够更快地学习。疯狂的灵感来自于(猜想)参数PDE解决方案的低维结构,并从流形学习的角度解释了我们的方法。最后,我们展示了疯狂的力量,虽然广泛的数值研究,包括汉堡等式,拉普尔斯方程和时域麦克斯韦方程。与其他深度学习方法相比,MAD表现出更快的收敛速度而不会失去准确性。
translated by 谷歌翻译
近年来,深入学习技术已被用来解决部分微分方程(PDE),其中物理信息的神经网络(PINNS)出现是解决前向和反向PDE问题的有希望的方法。具有点源的PDE,其表示为管理方程中的DIRAC DELTA函数是许多物理过程的数学模型。然而,由于DIRAC DELTA功能所带来的奇点,它们不能直接通过传统的PINNS方法来解决。我们提出了一种普遍的解决方案,以用三种新颖的技术解决这个问题。首先,DIRAC DELTA功能被建模为连续概率密度函数以消除奇点;其次,提出了下限约束的不确定性加权算法,以平衡点源区和其他区域之间的Pinns损失;第三,使用具有周期性激活功能的多尺度深度神经网络来提高PinnS方法的准确性和收敛速度。我们评估了三种代表性PDE的提出方法,实验结果表明,我们的方法优于基于深度学习的方法,涉及准确性,效率和多功能性。
translated by 谷歌翻译